# Regresión Logística
### Aprendizaje Automático - Instituto de Computación - UdelaR


## Regresión Logística

La regresión logística es un método de clasificación (igual que, por ejemplo, los árboles de decisión o los clasificadores bayesianos). La especificación es similar al caso de la regresión lineal, pero en este caso $y$, en lugar de tomar valores continuos, toma valores discretos. Empecemos por suponer que $y$ vale $0$ o $1$ (clasificación binaria), y luego veremos como generalizarlo.

La regresión logística no solamente intenta predecir la clase $y$, sino que lo hace intentando estimar la probabilidad de que valga 1 (y, al mismo tiempo, la de que valga 0). La regresión logística es un *clasificador probabilístico*.







## ¿Por qué no utilizar simplemente regresión lineal, suponiendo que $y$ es continua (aunque sepamos que solamente toma valores 0 y 1)?

<img src="https://miro.medium.com/v2/resize:fit:640/format:webp/1*mM_qElOkQIZ3eR6nwc9yng.png" width=400px/> <br>
<img src="https://miro.medium.com/v2/1*Kdth3dTZRTeeg0QY3l1P_w.jpeg" width=400px/> <br>
# Outliers<br>
<img src="https://miro.medium.com/v2/1*57QgHJNelV829yj4XoD8RQ.png" width=700px/> <br>
<img src="https://miro.medium.com/v2/1*EVzm1iP8tx0Opvw-ph-XrA.png" width=700px/>

## Regresión Logística


Podemos identificar cuatro componentes principales de un clasificador que utilice aprendizaje automático:

1. Una representación de los atributos de la entrada $[x_1, x_2, \ldots, x_n]$, para cada observación $x^{(i)}$
2. Una función de hipótesis que calcula $\hat{y}$, la clase predicha. Veremos aquí una de ellas: la función *sigmoide*
3. Una función objetivo (usualmente llamada función de costo) para el aprendizaje, que generalmente implica minimizar un error sobre los ejemplos de entrenamiento. Ya vimos una función así en la regresión lineal, y presentaremos dos más vinculadas a la regresión logística
4. Un algoritmo para optimizar la función objetivo. Ya vimos descenso por gradiente, y volveremos a utilizarlo aquí

## La función sigmoide

Para intentar calcular la probabilidad $P(y=1 | x;\theta)$ de que la clase sea 1, dada la instancia y con nuestros parámetros,  empezaremos por calcular la combinación lineal de los parámetros

$$z= \theta_0 + x^T\theta$$

Como $z$ no toma valores entre 0 y 1, lo pasaremos por una función sigmoide:

$$\sigma(z) = \frac{1}{1+e^{-z}}$$

Y, con ello, obtendremos las probabilidades que buscamos:

$$ P(y=1) = \sigma(\theta_0 + x^T\theta) $$

$$ P(y=0) = 1 - P(y=1) $$


## La función sigmoide

Para clasificar una instancia, simplemente agregamos una _frontera de decisión_:

 \begin{equation}
    \hat{y}=
    \begin{cases}
      1 & \text{if } P(y=1|x) > 0.5\\
      0 & \text{en otro caso}
    \end{cases}
  \end{equation}


(Al igual que en el caso de la regresión lineal, la frontera de decisión no tiene por qué ser lineal respecto a las variables de entrada: basta con considerar atributos que son combinaciones de variables de entrada para obtener hipótesis polinomiales, o más complejas, respecto a las variables de entrada)

<img src="https://miro.medium.com/v2/resize:fit:640/format:webp/1*dZ-9rn0vG7fZacc33k8Zwg.jpeg" style="width: 450px;"/>  <img src="https://miro.medium.com/v2/resize:fit:640/format:webp/1*WrjkswcLc0oqxIN5rNT2dg.png" style="width: 450px;"/>


## La función sigmoide

$g(z)$ es conocida como la _función logística_ o _sigmoide_, y luce así:

<img src="https://miro.medium.com/max/1400/1*6A3A_rt4YmumHusvTvVTxw.png" alt="Sigmoide" style="width: 450px;"/>

Comentarios:

- puede verse como una función de probabilidad continua, ya que tiende a $0$ cuando $z$ tiende a $-\infty$, y tiende a $1$ cuando $z$ tiende a $+\infty$.

- es diferenciable, con una derivada muy simpática: $\sigma'(x)=\sigma(x)(1-\sigma(x))$

- tiene un punto de inflexión en 0.5

- como tiene esas "mesetas" cuando se acerca a 0 o 1, tiende a llevar a los outliers a esos extremos

### Ejemplo (Martin & Jurafsky)

Supongamos que queremos evaluar si un documento expresa una opinión positiva (1) o negativa (0), y lo representamos así:

| Atributo        | Descripción |
| ------------- |:-------------|
| x_1 | count(lexicon positivos) |
| x_2 | count(lexicon negativos) |
| x_3 | 1 si aparece la palabra "no" |
| x_4 | count(pronombres de primera y segunda persona)|
| x_5 | 1 si aparece "!"
| x_6 | log(cantidad de palabras) |


y tenemos $\theta=[2.5, -5.0, -1.2, 0.5, 2.0, 0.7]$ y $\theta_0=0.1$.

Obsérvese que $\theta_1$ es positivo, lo que indica que el atributo contribuye a una una opinión positiva, mientras que el segundo y el tercero, por el contrario contribuyen a una negativa. Además, podemos ver (por sus valores absolutos), que el segundo atributo es el doble más importante que el primero en su contribución.

Calculamos las probabilidades de una instancia $x$ con valores $[3, 2,1,3,0, ln(66)=4.19]$

$$P(+| x) = \sigma(0.1+[2.5, -5.0, -1.2, 0.5, 2.0, 0.7] \cdot [3,2,1,3,0,4.19] = \sigma(0.833) = 0.70$$
$$P(-| x) = 0.30$$


## Función de costo para la regresión logística

La función $J(\theta)$ utilizada para la regresión lineal no es adecuada, ya que con la introducción de $g(z)$ en la hipótesis, deja de ser convexa, y por lo tanto presenta varios mínimos locales que impedirían el descenso por gradiente. Por lo tanto, construiremos una nueva función $J(\theta)$, convexa, que luego intentaremos minimizar.

Recordemos que $J(\theta)$ mide qué tanto difiere la predicción $\hat{y}=h_\theta(x)$ del verdadero $y$. Buscaremos una función que maximice la probabilidad de los valores de la clase en el corpus de entrenamiento (estimador de máxima verosimilitud condicional). Para ser más exactos, su logaritmo (lo cual es equivalente).

$$ p(y|x) = \hat{y}^y (1-\hat{y})^{1-y}$$

(aunque la fórmula parece horrible, observe qué devuelve en cada combinación de valores de $y$ y $\hat{y}$)

$$ \log p(y|x) = y\log\hat{y} + (1-y)\log(1-\hat{y}) $$





## Función de costo para la regresión logística


Como lo que queremos es una función a minimizar... cambiamos el signo y, con ello, obtenemos la función de costo, correspondiente a minimizar el negativo del logaritmo del estimador de máxima verosimilitud... también llamada *función de entropía cruzada* (*cross-entropy loss function*)

$$L_{CE}(\hat{y},y) = -\log p(y|x) $$

y, por lo tanto, nuestra función de costo sobre todos los ejemplos será:

$$ J(\theta) = \frac{1}{m} \sum_{i=1}^m L_{CE}(h_\theta(x^{(i)}),y^{(i)})$$

Esta función de costo así construida tiene algunas propiedades interesantes: vale $0$ si el valor predicho por la hipótesis es igual a $y$, y tiende a infinito si difiere. Por lo tanto, está penalizando el error en la predicción de los valores de entrenamiento. Además, resulta ser convexa, por lo que es posible obtener el mínimo global utilizando métodos iterativos, como el descenso por gradiente


$$
J(\theta) = - \frac{1}{m} \sum_{i=1}^m \left [ y^{(i)} log (h_\theta(x^{(i)})) + (1 - y^{(i)} ) log (1 - h_\theta(x^{(i)}))\right ]
$$


## Descenso por gradiente para regresión logística

Utilizando descenso por gradiente igual que hicimos con la regresión lineal:

$$ \theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta) $$

Para nuestra elección de $J(\theta)$ (es decir, utilizando entropía cruzada), la regla de actualización es:  

$$ \theta_j := \theta_j - \alpha \frac{1}{m}\sum_{i=1}^{m}  (h_\theta(x^{(i)}) - y^{(i)})x^{(i)}_j  $$

$$ \text{(actualizando todos los } \theta_j \text{ a la vez)} $$

o, en su versión vectorial:

$$ \theta := \theta - \alpha \frac{1}{m} X^T (g(X\theta) - y)  $$

## Regularización

Para evitar el sobreajuste, e igual que hicimos con la regresión lineal, modificamos la función de costo para penalizar los valores muy grandes de los parámetros:

$$J(\theta) = - \frac{1}{m} \sum_{i=1}^m \left[ y^{(i)}\ \log (h_\theta (x^{(i)})) + (1 - y^{(i)})\ \log (1 - h_\theta(x^{(i)}))\right] + \frac{\lambda}{2m}\sum_{j=1}^n \theta_j^2$$

Y obtenemos nuestra nueva regla de actualización para descenso por gradiente:

$$ \theta_0 := \theta_0 - \alpha \frac{1}{m}\sum_{i=1}^{m}  (h_\theta(x^{(i)}) - y^{(i)})x^{(i)}_0 $$

$$\theta_j := \theta_j - \alpha \left [ \left ( \frac{1}{m}\sum_{i=1}^{m}  (h_\theta(x^{(i)}) - y^{(i)})x^{(i)}_j \right
) + \frac{\lambda}{m}\theta_j  \right ]  $$

## Regresión logística multiclase (1-versus-rest)

Una vez resuelto el problema de la regresión logística para clasificación binaria, lo extenderemos al caso en que $y \in \{0,1,2 \ldots n\}$. Para ello dividiremos nuestro problema en $(n+1)$ problemas de clasificación binaria, donde en cada uno obtendremos un valor de $h_\theta^{(i)}$ para el problema de separar las instancias de la clase $i$ del resto. Luego, dado un ejemplo $x$, predeciremos la clase $i$ para la que el valor de $h_\theta^{(i)}(x)$ es máximo:

$$
\begin{align}
y \in \{1,2\ldots n\}\\
h_\theta^{(i)} = P(y=i\ \mid x;\theta) \\
\text{predecir  para } x = \max_i (h_\theta^{(i)})
\end{align}
$$

<img src="https://miro.medium.com/max/1400/1*RElrybCZ4WPsUfRwDl7fqA.png" />

## Siguientes clases: Redes neuronales


## Referencias

- [Logistic Regression](https://web.stanford.edu/~jurafsky/slp3/5.pdf) - Capítulo 5 (draft) de la 3era edición del libro "Speech and Language Processing" de Martin and Jurafsky.
- [Notas del curso CS229](https://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf) de la Universidad de Stanford (disponible en la plataforma Coursera)